Inicialmente serão plotados os gráficos das variáveis do dataset para que possam ser avaliados.
Avaliando os gráficos gerados pode-se perceber que as variáveis density e pH têm distribuição normal.
Em contrapartida, fixed.acidity, volatile.acidity, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide e sulphates têm cauda longa.
Para uma melhor análise dos itens que não estão apresentando uma variação normal, será aplicada uma transformação logarítmica para verificar se são casos de variação log-normal.
Aplicando a transformação logarítmica, observamos que residual.sugar, chlorides e sulphates estão com distribuição log-normal, apesar de serem long tail.
As outras variáveis apresentam uma distribuição próximas da log-normal.
A variável quality será utilizada como variável dependente. O estudo será feito a partir de outras variáveis que serão analisadas com relação à quality.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.636 6.000 8.000
Dado que a variável quality apresenta apenas números inteiros, ou seja, não teremos vinhos classificados com qualidade 6.8, por exemplo, serão criadas categorias de classificação de vinhos.
Os vinhos estão classificados em uma escala de 0 a 10, sendo 0 a pior classificação de qualidade e 10 a melhor.
No dataset estudado, a maioria dos vinhos estão classificados com qualidade 5 e 6. A pior qualidade observada foi 3 e a melhor foi 8.
Desse modo, os vinhos serão categorizados em:
No gráfico Categorias temos a distribuição dos vinhos distribuídos nas categorias, ruim, bom e excelente.
No gráfico Categorias e qualidade temos a mesma representação do gráfico anterior, mas com a exibição também das quantidades que aparecem em cada uma das categorias.
A seguir, as variáveis independentes serão analisadas com relação à variável dependente quality.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.60 7.10 7.90 8.32 9.20 15.90
## [1] "Correlação da Acidez Fixa com a Qualidade: 0.124051649113224"
A variável de Acidez Fixa tem distribuição próxima de log-normal.
Sua correlação com a variável dependente Qualidade é de 0,12 e é considerada baixa Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3900 0.5200 0.5278 0.6400 1.5800
## [1] "Correlação da Acidez Volátil com a Qualidade: -0.390557780264007"
A variável de Acidez Volátil tem distribuição próxima de log-normal.
Sua correlação com a variável dependente Qualidade é de -0,39 e é considerada moderada. Portanto, será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.090 0.260 0.271 0.420 1.000
## [1] "Correlação de Ácido Cítrico com a Qualidade: 0.226372514318041"
A variável de Ácido Cítrico tem distribuição próxima de log-normal.
Sua correlação com a variável dependente Qualidade é de 0,23 e é considerada moderada. Portanto, será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.900 1.900 2.200 2.539 2.600 15.500
## [1] "Correlação de Açúcar Residual com a Qualidade: 0.0137316373400663"
A variável de Açúcar Residual tem distribuição log-normal, apesar de apresentar long tail e exceções.
Sua correlação com a variável dependente Qualidade é de 0,01 e é considerada fraca. Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100
## [1] "Correlação de Cloretos com a Qualidade: -0.128906559930053"
A variável de Cloretos tem distribuição próxima de log-normal.
Sua correlação com a variável dependente Qualidade é de -0,13 e é considerada fraca. Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 7.00 14.00 15.87 21.00 72.00
## [1] "Correlação de Dióxido de Enxofre Livres com a Qualidade: -0.0506560572442764"
A variável de Dióxido de Enxofre Livres tem distribuição próxima de log-normal.
Sua correlação com a variável dependente Qualidade é de -0,05 e é considerada fraca. Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 22.00 38.00 46.47 62.00 289.00
## [1] "Correlação de Dióxido de Enxofre Total com a Qualidade: -0.185100288926538"
A variável de Dióxido de Enxofre Total tem distribuição próxima de log-normal.
Sua correlação com a variável dependente Qualidade é de -0,18 e é considerada fraca. Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9956 0.9968 0.9967 0.9978 1.0037
## [1] "Correlação de Densidade com a Qualidade: -0.174919227783349"
A variável de Densidade tem distribuição próxima de log-normal.
Sua correlação com a variável dependente Qualidade é de -0,17 e é considerada fraca. Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.210 3.310 3.311 3.400 4.010
## [1] "Correlação de pH com a Qualidade: -0.0577313912053821"
A variável de Potencial Hidrogeniônico tem distribuição próxima de log-normal.
Sua correlação com a variável dependente Qualidade é de -0,06 e é considerada desprezível. Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.5500 0.6200 0.6581 0.7300 2.0000
## [1] "Correlação de Sulfatos com a Qualidade: 0.251397079069261"
A variável de Sulfatos tem distribuição próxima de log-normal.
Sua correlação com a variável dependente Qualidade é de 0.25 e é considerada moderada. Portanto, será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
## [1] "Correlação de Álcool com a Qualidade: 0.476166324001136"
A variável de Álcool tem distribuição próxima de log-normal.
Sua correlação com a variável dependente Qualidade é de 0.48 e é considerada moderada. Portanto, será avaliada.
## 'data.frame': 1599 obs. of 14 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
## $ category : Factor w/ 3 levels "ruim","bom","excelente": 2 2 2 2 2 2 2 2 2 2 ...
Adicional ao que é exibido na função str(), de acordo com o arquivo wineQualytiInfo.txt obtido do repositório da Udacity no endereço https://s3.amazonaws.com/udacity-hosted-downloads/ud651/wineQualityInfo.txt, o conjunto de dados tem a seguinte estrutura de variáveis:
Input variables (based on physicochemical tests):
Output variable (based on sensory data):
QUALITY é o atributo principal, pois ele define a qualidade do vinho baseado nos outros fatores.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.636 6.000 8.000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
| variável | correlação |
|---|---|
| fixed.acidity | 0.12 |
| volatile.acidity | -0.39 |
| citric.acid | 0.23 |
| residual.sugar | 0.01 |
| chlorides | -0.13 |
| free.sulfur.dioxide | -0.05 |
| total.sulfulr.dioxide | -0.19 |
| density | -0.17 |
| pH | -0.06 |
| sulphates | 0.25 |
| alcohol | 0.48 |
De acordo com a tabela acima, não temos nenhuma variável com uma correlação forte.
Com base nos valores de correlação obtidos, os atributos que podem auxiliar a investigação são:
Foi criada a variável category, conforme descrito acima para classificar os vinhos em ruins, bons e excelentes.
Foram encontradas duas variáveis com distribuição normal:
As variáveis a seguir têm distribuição log-normal (apesar de long tail)
As variáveis restantes têm distribuição próximas a log-normal
Não houve necessidade de ajustes ou formatação dos dados, por serem todos numéricos.
Análise das quatro variáveis com maior correlação com a variável quality.
Álcool - melhores qualidades de vinhos observadas quando o teor alcoólico é mais alto, acima de 10% do volume.
Entretanto, há uma inversão com vinhos categorizados como bons, porém com qualidade 5. Vinhos com qualidade inferior (3 e 4) possuem teores alcoólicos acima.
Conforme observado na seção Influência dos componentes na qualidade dos vinhos, melhores vinhos têm:
Dos atributos que não foram selecionados para a análise, foram encontradas duas correlações fortes:
Os atributos pH e fixed.acidity não parecem muito relevantes, porque os dois se relacionam com alcalinidade dos vinhos. Não há vinho tendendo a ser ácido. Todos são alcoólicos. O próprio fator pH tem correlação muito fraca com a qualidade, da ordem de -0.06.
O maior correlacionamento encontrado entre os itens de interesse foi:
O maior correlacionamento encontrado entre os itens de não interesse foi:
Calculando-se a correlação entre os fatores de interesse, também observou-se:
Mostrando a variação do fator mais importante, o teor alcoólico é o elemento que mais contribui na qualidade do vinho.
Bons vinhos também dependem dos índices de Acidez Volátil e Ácido Cítrico em sua composição para serem bem classificados.
O gráfico acima mostra a distribuição desses compontentes nas categorias ruim, bom e excelente, às quais foram classificados os vinhos do dataset.
A análise do dataset de Qualidade de Vinhos Tintos começou com a avaliação das variáveis que foram plotadas em histogramas.
Uma vez com a informação visual dos elementos, segui para a identificação da variável dependente, que foi facilmente anotada pela quality, que é uma nota dada para o vinho.
Com a variável dependente já identificada, calculei as correlações entre as outras variáveis e selecionei as de correlação mais forte.
Uma primeira dificuldade foi escolher as variáveis para fazer os estudos, visto que nenhuma delas apresenta correlação forte com a qualidade. Sendo assim, escolhi as melhores, sendo todas de correlação mediana.
A partir desse ponto, foram plotados gráficos para identificar como essas variáveis podem descrever a qualidade de um vinho.
Além dos estudos de correlação das variáveis com a qualidade, também foram analisadas as correlações entre as mais fortes, obtendo a linha de tendência.
Por fim, com todas as análises em mãos, foi feito um resumo sobre a relação entre os fatores observados e a qualidade de vinhos tintos, apresentado em três gráficos.